2019AIIA中文语音合成4S首轮评估测试结果解读
11月1-2日,以“‘源’开则行、‘机’智则灵”为主题的“AIIA 2019人工智能开发者大会(AIDC)暨第四届中国(杭州)人工智能产业发展论坛”在杭州未来科技城隆重召开,首批中文语音合成服务系统评估结果正式发布,共四家企业获得证书,具体产品名称如下(排名不分先后):
阿里云计算有限公司
阿里云语音服务合成软件
苏州思必驰信息科技有限公司
思必驰智能中文语音合成系统
腾讯云计算(北京)有限责任公司
腾讯云小微语音合成
同盾科技有限公司
云端中文语音合成系统
近年来,得益于深度学习算法的突破,语音合成效果得到质的提升,已达到落地商用的水平,市场上涌现出大量语音合成产品,在智能客服、有声阅读、语音导航、智能教育等各类场景中有很好的普遍应用。为促进语音合成技术演进,保护优质服务商,推进产业发展进步,中国人工智能产业发展联盟(简称:AIIA或联盟)开展了中文语音合成服务系统评估工作。自项目启动以来,中科院自动化所、科大讯飞、搜狗、百度、腾讯、阿里巴巴、华为等三十余家单位参与规范研讨,经过多次深入交流,最终确定中文语音合成服务系统的评测体系、指标和方法,发布《中文语音合成服务系统评估规范》AIIA/PG 008-2019。
此次按照TTS-4S中文语音合成服务系统评测方法,立足产品应用实际场景,从四个维度进行综合评估:
Standard质量基准度
——发音准确度、音节清晰度和语音自然度;
Similarity定制相似度
——通过小样本、大样本和粗样本进行定制训练,比较原发音人和合成还原相似程度;
Scene场景表现力
——电信业务、车载驾驶、医疗健康、语言教育、新闻播报、文娱体育、金融服务七大场景中场景贴合程度;
System系统安全可靠
——系统服务可靠性、稳定性和安全性。
2019年5月AIIA发布首批评估工作正式启动,此次邀请到了教育部国家语委国家级测试员对合成音频进行听音评测,经过技术测试、材料审查、企业答辩和专家评审,对参评企业技术产品能力进行评估。从最终评测结果来看,各参评企业的中文语音合成质量已达到不错的水平,在质量基准度、定制相似度和场景表现力都发挥良好,不仅可以满足现有商用合成基本需求,同时具有不同音色的发音人供用户选择,目前在车载语音、智能客服、有声阅读等场景中有实际的应用案例。
但是,通过本次评测专家听音判别和指标结果分析,在原有基础之上,语音合成在发音准确、拟人化、自然度、流畅度等方面还需要进一步的提升,主要有以下几个方面。
1.在同形多音词、轻重音、儿化等特殊语音现象上的识别能力较弱
2.在英文、符号、日期等特殊表达形式上识别合成能力有待提高
3.语言自然度上存在语速过快、停连不当、感情不足等问题
4.与真人音比较,合成音频与人工音频轻重音位置不同,语气较平缓、起伏度不够。
5.由于场景表现力更倾向于情绪饱满和拟人舒适等情感需求,各家评测指标合成质量得分与语音自然度基本一致,但稍显逊色,详见解读内容。
基于首轮测试的经验,联盟评估组将会对中文语音合成评估规范进行优化和迭代,使得测试指标和方法更加贴近产品和市场需求,同时完善测试数据集,从不同维度将文本测试内容具象化,以达到最终目标:
深耕场景,设计针对垂直领域标准化数据集
需求定制,划分基础级和增强级文本测试库
优化迭代,针对评测体系进行相应更新调整
数据服务,依据测试结果提出针对调优数据
以下是测试结果解读全文